260117 Step-3-VL 10B
通读全文(特别是 RL 动力学分析部分),确实处处透露出“算力即真理”(Scaling Law)在强化学习领域的暴力美学效果。
基于扩展法则的视觉语言模型强化学习范式研究
——以 STEP3-VL-10B 为例的暴力美学实证
《超越参数的暴力美学:STEP3-VL-10B 中的 RL 扩展法则》
《Scaling Law 的胜利:RL 如何让 10B 模型实现 100B 级智能》
摘要:
STEP3-VL-10B 模型在参数规模受限(10B)的条件下,通过极致的强化学习(Reinforcement Learning, RL)扩展策略,实现超越百B模型的性能突破。研究表明,通过大规模的 RL 训练,模型不仅能够习得复杂的推理策略,更能通过“测试时计算扩展(Test-time Compute Scaling)”打破参数瓶颈,验证了 RL 的“力大砖飞”效应。
- 引言:从参数扩展到计算扩展
在当前多模态大模型(MLLMs)的发展瓶颈中,单纯扩大参数量已面临边际效益递减与部署成本高昂的双重困境。STEP3-VL-10B 的核心贡献在于提出了一种“高算力密度”的训练范式。该模型证明了:智能表现并非单纯依赖参数规模,而是可以通过在 RL 阶段投入巨大的计算资源(Over 1k iterations),将复杂的感知与推理能力“蒸馏”进紧凑的架构中。
- 方法论:暴力美学的 RL 实现路径
文章展示了三种层级的 RL “暴力”扩展手段,旨在通过计算量弥补参数量的不足:
2.1 纵向扩展:深度强化学习管道
模型构建了长达 1,400 轮迭代的 RL 训练管道,分为两个核心阶段:
- RLVR(基于验证奖励的强化学习): 在 600 轮迭代中,利用 GPT-OSS-120B 作为裁判模型,对数学、物理及视觉感知任务进行多维度验证。这种利用超大模型作为“奖励函数”的方式,本质上是将外部智能通过 RL 过程“内化”为小模型的策略。
- RLHF(基于人类反馈的强化学习): 在 300 轮迭代中,针对开放域任务进行偏好对齐。
2.2 横向扩展:并行协调推理(PaCoRe)
这是文章体现“力大砖飞”最显著的部分。在推理阶段(Inference),模型放弃了传统的单路径生成,转而采用 PaCoRe 策略。
- 机制: 生成 16 个独立的推理路径(Rollouts),并将其合成为最终答案。
- 本质: 这是一种典型的“测试时计算扩展”(Test-time Compute Scaling)。虽然模型参数仅 10B,但在推理时动用了相当于 16 倍的计算量(131k tokens 上下文),从而在 MMMU 和 MathVision 等任务上实现了对 100B+ 模型的反杀。
2.3 动态扩展:分叉奖励机制(Bifurcated Reward Framework)
为了支撑上述庞大的 RL 过程,作者设计了一套高精度的奖励系统。
- 感知奖励(Perception Rewards): 采用基于距离的衰减塑形(Distance-decay reward shaping),将视觉定位误差转化为标量奖励。
- 模型基验证(Model-Based Verification): 利用 GPT-120B 进行语义等价性判断,解决了传统 RL 中奖励稀疏和幻觉难以惩罚的问题。
- 实验结果:RL 动力学的涌现
实验数据有力地支持了“RL 即智能”的假设,展示了典型的扩展法则(Scaling Law)特征:
3.1 奖励与性能的单调递增
如图 2 和图 3 所示,在 RLVR 的 600 轮训练中,奖励分数(Reward)持续上升且未出现饱和(No Saturation),同时下游任务指标(如 MathVision, MMMU-Pro)呈现线性增长。这证明了 RL 训练并非简单的过拟合,而是模型在持续“吸收”计算资源带来的认知能力。
3.2 长度动力学的博弈
文章提出了一个深刻的观察:“长度缩减”(Length Diminishment)与“顺序扩展”(Sequential Scaling)的博弈。
- 感知任务: RL 促使模型压缩推理长度,直接输出确定性答案(熵减)。
- 推理任务: RL 促使模型增加推理步骤(Chain-of-Thought)。
- 结论: RL 的本质是通过优化策略分布,让模型在“思考”与“直觉”之间找到最优解。
3.3 性能反超(Emergence)
在 PaCoRe 模式下,STEP3-VL-10B 展现了涌现能力:
- MathVision: +5.14% 的提升。
- CountQA: +4.6% 的提升。
- 这证明了当推理时的计算量(Test-time Compute)足够大时,小模型也能涌现出类似大模型的复杂推理表征。
- 效果
最终STEP3-VL-10B在 10B 规模以下的模型中始终表现最优,并能媲美甚至超越规模大 10×–20× 的开源模型(如 GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B)以及顶级闭源旗舰模型(如 Gemini 2.5 Pro、Seed-1.5-VL)。
- 结论
STEP3-VL-10B 的技术报告是一篇关于“算力决定论”的有力证明。它证明了在当前阶段,强化学习是打破参数规模限制、实现模型能力跃迁的有效手段。通过将“感知”与“推理”转化为可计算的奖励信号,并辅以海量的训练迭代,RL 确实实现了“力大砖飞”的效果,使得 10B 级别的模型能够触及百亿级模型的智能前沿。
总结亮点:
- 算力即真理: 文章通过 1k+ 轮 RL 迭代,证明了足够的计算量可以弥补 10 倍以上的参数差距。
- 暴力美学: PaCoRe 在推理时动用 16 倍算力进行并行搜索,是典型的“以算力换精度”策略。
- 内化智能: 利用 GPT-120B 作为裁判,实际上是将外部超大模型的智能通过 RL “暴力”注入到小模型中。